Descargar los datos
Vamos a seleccionar solamente los genes de Alzheimer de KEGG en nuestro dataset de expresión génica.
Visualizamos si se han seleccionado todos los genes y cuantos del geneset de KEGG
Vemos que con las 20 primeras no encontramos ni siquiera el 80% de la varianza.
Voy ahora a ver de esas muestras seleccionadas, qué covariables están asociadas con esas muestras outliers
Parámetros clave en t-SNE: Perplexity (Perplejidad): Este es uno de los parámetros más importantes en t-SNE. La perplejidad se relaciona con el número de vecinos cercanos que t-SNE considera cuando mapea los datos. Un valor demasiado bajo hace que el modelo se concentre demasiado en la estructura local, mientras que un valor demasiado alto puede llevar a una visión global que pierde detalles. La elección óptima depende del tamaño del dataset, pero valores tÃpicos están entre 5 y 50.
Número de iteraciones: t-SNE es un algoritmo iterativo, y el número de iteraciones puede afectar la estabilidad de los resultados. Un número insuficiente de iteraciones puede resultar en una organización incompleta, mientras que demasiadas iteraciones pueden no proporcionar beneficios adicionales y aumentar el tiempo de cálculo.
Tasa de aprendizaje: Este parámetro controla el tamaño del paso en cada actualización durante la optimización. Una tasa de aprendizaje muy baja puede hacer que el algoritmo tarde mucho en converger, mientras que una tasa demasiado alta puede llevar a una convergencia pobre.
#### Seleccionar muestras con el doble de la desviación tÃpica
Seleccionamos muestras que esten 2 veces la desviacion tipica para la PC1 y PC2
Las ploteamos
Creamos los grupos de muestras seleccionados de los outliers de PC1 y/o PC2
Metemos una nueva variable en las covariables dependiendo de si son outliers de PC1 o del PC2 o de ninguno.